本文介绍了Apamant,这是一组软件模块,可为现有的机器人计划和控制软件框架提供掌握计划功能。我们提出的工作允许用户调整操作任务,以在不同的情况下使用最小的用户输入,从而减少操作员的认知负载。开发的工具包括(1)基于插件的组件,使得易于扩展默认功能并使用第三方Grasp库,(2)以对象为中心的方式来定义任务约束,(3)用户友好的RVIZ接口使用GRASP计划者实用程序,以及(4)使用感知数据来编程任务的交互式工具。我们在各种机器人模拟上测试了框架。
translated by 谷歌翻译
The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
As AI systems become more capable, we would like to enlist their help to supervise other AIs. We experiment with methods for training a harmless AI assistant through self-improvement, without any human labels identifying harmful outputs. The only human oversight is provided through a list of rules or principles, and so we refer to the method as 'Constitutional AI'. The process involves both a supervised learning and a reinforcement learning phase. In the supervised phase we sample from an initial model, then generate self-critiques and revisions, and then finetune the original model on revised responses. In the RL phase, we sample from the finetuned model, use a model to evaluate which of the two samples is better, and then train a preference model from this dataset of AI preferences. We then train with RL using the preference model as the reward signal, i.e. we use 'RL from AI Feedback' (RLAIF). As a result we are able to train a harmless but non-evasive AI assistant that engages with harmful queries by explaining its objections to them. Both the SL and RL methods can leverage chain-of-thought style reasoning to improve the human-judged performance and transparency of AI decision making. These methods make it possible to control AI behavior more precisely and with far fewer human labels.
translated by 谷歌翻译
在整个计算科学中,越来越需要利用原始计算马力的持续改进,通过对蛮力的尺度锻炼的尺度增加,以增加网状元素数量的增加。例如,如果不考虑分子水平的相互作用,就不可能对纳米多孔介质的转运进行定量预测,即从紧密的页岩地层提取至关重要的碳氢化合物。同样,惯性限制融合模拟依赖于数值扩散来模拟分子效应,例如非本地转运和混合,而无需真正考虑分子相互作用。考虑到这两个不同的应用程序,我们开发了一种新颖的功能,该功能使用主动学习方法来优化局部细尺度模拟的使用来告知粗尺度流体动力学。我们的方法解决了三个挑战:预测连续性粗尺度轨迹,以推测执行新的精细分子动力学计算,动态地更新细度计算中的粗尺度,并量化神经网络模型中的不确定性。
translated by 谷歌翻译
明显大小的时间变化(称为光曲线)是望远镜在长时间内捕获的感兴趣的观察统计。光曲线提供了空间域意识(SDA)目标(例如对象识别或姿势估计)作为潜在变量推理问题等目标的探索。与较高的精确仪器相比,来自货架上商业架子(COTS)摄像机的地面观测仍然很便宜,但是,有限的传感器可用性与嘈杂的观察结果相结合,可能会产生可能难以建模的gappy时间序列数据。这些外部因素混淆了对光曲线的自动开发,这使光曲线预测和外推成为应用的关键问题。传统上,使用基于扩散或基于示例的方法解决了图像或时间序列的完成问题。最近,由于学习复杂的非线性嵌入方面的经验成功,深度神经网络(DNNS)已成为首选工具。但是,DNN通常需要大量的培训数据,而这些数据不一定在查看单个卫星的光曲线的独特功能时可用。在本文中,我们提出了一种新的方法,可以使用高斯工艺(GPS)预测光曲线的缺失和未来数据点。 GPS是非线性概率模型,可推断后验分布在功能上并自然量化不确定性。但是,GP推理和培训的立方缩放是其在应用中采用的主要障碍。特别是,单个光曲线可以具有数十万个观测值,这远远超出了单个机器上常规GP的实际实现极限。因此,我们采用MUYGP,这是一种可扩展的框架,用于使用最近的邻居稀疏和局部交叉验证的GP模型的超参数估计。 muygps ...
translated by 谷歌翻译
我们在GPU上实现了一种信任区域方法,用于使用称为JAX的新的深度学习Python库,用于非线性最小二乘曲线曲线拟合问题。我们的开源软件包JaxFit适用于无约束和约束曲线拟合问题,并允许仅在Python中定义拟合功能 - 而无需对GPU或CUDA编程的任何专业知识。由于JaxFit在GPU上运行,尽管非常易于使用,但它比基于CPU的库甚至其他基于GPU的库快得多。此外,由于JAX的深度学习基础,Jaxfit的信任区域算法中的Jacobian是通过自动分化计算的,而不是使用衍生近似值或要求用户定义拟合函数的部分导数。
translated by 谷歌翻译
在线自主代理能够利用各种潜在的任务知识来源;但是,目前的方法总是只关注一两个。在这里,我们调查了利用多样化知识源以一记模拟的家用移动机器人的新任务学习的挑战和影响。在SOAR认知体系结构中开发的最终代理使用以下域和任务知识来源:与环境的互动,任务执行和规划知识,人类自然语言指导以及从大语言模型(GPT-3)检索到的响应。我们探讨了这些知识来源的不同贡献,并在学习正确的任务知识,人力工作量和计算成本方面评估了不同组合的性能。结合所有来源的结果表明,整合可以在计算成本和人力工作量方面改善一声任务学习。
translated by 谷歌翻译
推断线性关系是许多实证研究的核心。线性依赖性的度量应正确评估关系的强度,并符合对人群的有意义。 Pearson的相关系数(PCC)是双变量关系的\ textit {De-facto}量度,这两个方面都缺乏。估计的强度$ r $可能是由于样本量有限和数据非正态而可能错误的。在统计显着性测试的背景下,将$ p $值作为后验概率的错误解释导致I型错误 - 这是一个具有显着性测试的一般问题,扩展到PCC。同时测试多个假设时,此类错误会加剧。为了解决这些问题,我们提出了一种基于机器学习的预测数据校准方法,从本质上讲,该方法在预期的线性关系上进行了研究。使用校准数据计算PCC会产生校准的$ P $值,可以将其解释为后验概率以及校准的$ r $估计值,这是其他方法未提供的所需结果。此外,随之而来的对每个测试的独立解释可能会消除对多次测试校正的需求。我们提供了使用多个模拟和对现实世界数据的应用,有利于提出的方法的经验证据。
translated by 谷歌翻译
从我们生命的最早几年开始,人类使用语言来表达我们的信念和欲望。因此,能够与人造代理讨论我们的偏好将实现价值一致性的核心目标。然而,今天,我们缺乏解释这种灵活和抽象语言使用的计算模型。为了应对这一挑战,我们考虑在线性强盗环境中考虑社会学习,并询问人类如何传达与行为的偏好(即奖励功能)。我们研究两种不同类型的语言:指令,提供有关所需政策的信息和描述,这些信息提供了有关奖励功能的信息。为了解释人类如何使用这些形式的语言,我们建议他们推理出已知和未知的未来状态:对当前的说明优化,同时描述对未来进行了推广。我们通过扩展奖励设计来考虑对国家的分配来形式化此选择。然后,我们定义了一种务实的听众,该代理人通过推理说话者如何表达自己来侵犯说话者的奖励功能。我们通过行为实验来验证我们的模型,表明(1)我们的说话者模型预测了自发的人类行为,并且(2)我们的务实的听众能够恢复其奖励功能。最后,我们表明,在传统的强化学习环境中,务实的社会学习可以与个人学习相结合并加速。我们的发现表明,从更广泛的语言中的社会学习,特别是,扩大了该领域的目前对指示的关注,以包括从描述中学习 - 是一种有前途的价值一致性和强化学习的有前途的方法。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译